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© Verfahren zum Betrieb einer Datenverarbeitungseinnchtung 

© Verfahren zum Betrieb einer Datenverarbeitungseinnch- 
tung mit programmier- und konflgurier barer Zellstruktur, 
wobei die Datenverarbeitungseinnchtung eine Zellmatrfoc aus 
einer Vlebahl orthogonal zueinander angeordneter, homo- 
gen strukturierter Zellen, wefche in ihrer Funfctfon und 
Vernetzung durch eine Ladelogik frei programmierbar sind, 
enthalt, dadurch gekennzeichnet, daS 

a) ein Konfigurationsprogramm, bestehend aus einer Foige 
von Ladelogik-Befehlen, die Jewells die Funktion und Vernet- 
zung der einzelnen Zellen angeben, so daS sich aus einer Teii 
foige eine spezieile Konfiguration mit spezJellerfen) Anwen- 
dung(en) ergibt, vorhanden ist. auf das die Ladelogik (30) 
Zugriff hat (Fig. 3, Fig. 8, Fig. 14. Fig. 15) und das von ihr 
ausgefuhrt wird, 

b) zunachst durch eine bestimmte Anzahl von Ladelogik-Be- 
fehlen eine Konfiguration (Fig. 20b) mit spezieller(en) An- 
wendung(en), mittels. der Ladelogik (30) zu Beginn als 
Startkonfiguration in der Zell-Matrix (Fig. 2, Fig. 3) einge- 
stellt wird, 

c) durch eine Statemachine (45) Oder einen Komparator (48) 
die Beendigung der Durchfuhrung einer Anwendung einer 
oder mehrerer Zeilen erkannt wird, 

d) durch die Erkennung eine Ruckmeidung an die Ladelogik 
(30) erfoJgt, die die Programmabarbeitung des Konfigura- 
tionsprogramms mit einer anderen Teilfolge (Fig. 21b, 
Fig. 22b) fortsetzt, welche nur Zellen umkonfiguriert, also 
neu erstellt, die die Durchfuhrung ihrer Funktion fur die 
aktueile Anwendung bererts beendet haben oder nicht 
benotigt werden, so daft die Abarbeitung der Datenstrome 
der an der aktuellen Konfiguration noch beteiligten, parallel 
(z.B. Register 41, 42) . Oder gepfpeiined (z.B. Fig. 22a, 
Summierer 141 und Multiplizierer 149) arbeitenden Zellen, 
die sich noch in der Durchfuhrung ihrer Anwendung befin- 
den, nicht gestort wird. 
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Beschreibung weils logisch gleicher und strukturell identisch angeord- 

neter Zellen gezeigt, sowie dessen interne Busstruktur, 

Die vorliegende Erfindung bezieht sich auf Verfahren die zur Erleichterung der Programmiening auBerst ho- 

zum Betrieb einer Datenverarbeitungseinrichtung, d h. mogen ist Grundsatztich ist es denkbar innerhalb eines 
einer Hardwareeinheit zur logischen und arithmeti- 5 DatenfluBprozessors Zellen mit verschiedenen Zellogi- 

schen Manipulation (Verknupfung) von in binarer Form ken und Zellstrukturen unterzubringen, um so die Lei- 

vorliegenden Daten (Informationen). stungsfahigkeit zu erhohen, indem zum Beispiel fur 

Nach dem Stand der Technik sind gewohnliche Mi- Speicheransteuerungen (Businterface) andere Zellen als 

kroprozessoren (z. B. Intel SO x 86) bereits bekannt Die- fur arithmetische Operationen (Arithmetisch/logische 
se sind aus fest vorgegebenen Einheiten ausgestaltet 10 Einheiten (ALUs) existieren. Insbesondere kann fur neu- 

und verarbeiten Programme durch das Auskodieren ronale Netze eine gewisse Spezialisierung von Vorteil 

von Befehlen (Microcode) und dadurch bestimmte Regi- sein. Den Zellen ist eine Ladelogik zugeordnet, Ober die 

stermanipulationen. die Zellen je fur sich und gegebenenfalls gruppenweise 

Ebenf alls bekannt sind sogenannte FPGAs (z. B. aus in sogenannte MACROs (Menge von Zellen, welche zu- 

US-Patent 4,870302) die zum Aufbau von komplexen 15 sammen eine defmierte Aufgabe l&sen) zusammenge- 

logischen Strukturen verwendet werden. Auf der faBt so programmierbar sind, daB einerseits beliebige 

Grundlage dieser Bausteine lassen sich Rechenwerke logische Funktionen, andererseits aber auch die Ver- 

wie Addierer, Multiplizierer, eta innerhalb des Baustei- knupfung der Zellen untereinander in weiten Bereichen 

nes fur die DurchfQhrung einer bestimmten Funktion verifizierbar sind. Dies wird erreicht indem jeder einzel- 

oder Aufgabe konfigurieren. Durch die direkte Imple- 20 nen Zelle ein gewisser Speicherpiatz zur VerfQgung 

mentiemng einer Funktion in die entsprechenden Lo- stent, m dem die Konfigurationsdatenabgelegt sind An- 

gikbausteine konnen FPGAs Funktionen oftmals hand dieser Daten werden Multiplexer oder Transisto- 

schneller ausfuhren als Mikroprozessorea Obwohl die ren in der Zelle beschaltet um die jeweilige Zellfunktion 

bekannten Bausteine aufgrund ihrer SRAM-Architek- zu gewahrleisten (siehe Fig. 12). 

tur bereits umkonfiguriert werden konnen, existiertkein 25 Mit anderen als im Patentanspruch 1 gebrauchten 

Mechanismus, um die Umkonfigurauon schnell und dy- Worten besteht der Kern der vorliegenden Erfindung 

namisch wahrend der Laufzeit durchfiihren zu kdnnen, darin, eine Methode fur einen DatenfluBprozessor vor- 

insbesondere, wenn nur Teilbereiche des Bausteines mit zuschlagen, der zellular aufgebaut ist und dessen Zellen 

einer neuen Funktion konfiguriert werden sollen, wah- uber eine Ladelogik im arithmetisch-logischen Sinne 

rend andere Teile des Bausteines ihre Aufgabe fortset- 30 quasi beliebig neu konfiguriert werden konnen. Dabei 

zen. Durch die fehlende Interaktion zwischen einer kon- ist es von auBerster Notwendigkeit, daB die betreffen- 

figurierenden Einheit und dem FPGA an sich, scheiden den Zellen einzeln und ohne Beeinflussung der Ubrigen 

die Bausteine als funktional vollwertiger Ersatz fur Mi- Zellen oder gar einer Stillegung des gesamten Bausteins 

kroprozessoren aus. umkonfiguriert werden konnen. Ein DatenfluBprozes- 

Die der vorliegenden Erfindung zugrunde liegende 35 sor gemaB dem vorliegenden Verfahren kann so wah- 

Aufgabe besteht darin, ein Verfahren zum Betrieb einer rend eines ersten Arbeitszyklusses als Addierer und 

Datenverarbeitungseinrichtung mit programmierbarer wahrend eines spateren Arbeitszyklusses als Multipli- 

und konfigurierbarer Zell-Struktur — wobei eine Zelle zierer *programmiert7genutzt werden, wobei die An- 

als ein logisches Schaltelement ahnlich US 4,870302 zahl der fur die Addition beziehungsweise die Multipli- 

(LE) oder eine besonders ausgestaltete Recheneinheit 40 kation erforderlichen Zellen durchaus unterschiedlich 

(ALU) definiert ist — bereitzustellen, das eine h6here sein kdnnen. Dabei bleibt die Piazierung der bereits 

Parallelitat der Verarbeitung und eine flexiblere Verar- geladenen und wahrend des Umladeprozesses nicht tan- 

beitung von Daten gewahrieistet gierten MACROs erhalten; der Ladelogik beziehungs- 

Dabei wird beschrieben, wie Bausteine, die aus einer weise dem Compiler obliegt es, das neu zu ladende MA- 

Vielzahl von zwei- oder mehrdimensionaJen Zellstruk- 45 CRO innerhalb der freien Zellen zu partitionieren (d h. 

turen aufgebaut sind, schnell und effizient nach Ablauf das zu ladende MACRO so zu zerlegen, daB es sich 

eines Arbeitsschrittes oder Teilarbeitsschrittes, durch optimal einfugen laBt). Die Ablaufsteuerung des Pro- 

Interaktion zwischen dem Baustein und einer konfigu- gramms wird dabei von der Ladelogik ubernommen, 

rierenden Einheit, dynamisch neu konfiguriert werden, indem sie gemaB dem momentan ausgeftihrten Pro- 

ohne EinfluB auf noch ablaufende Arbeitsschritte zu ha- 50 grammabschnitt die entsprechenden MACROs in den 

ben. Die Notwendigkeit einer Umkonfiguration, bzw. Baustein ladt, wobei der Ladevorgang von der spater 

das Ende eines Arbeitsschrittes, kann gemaB dieses Ver- beschriebenen Synchronisationslogik mitgesteuert 

fahrens automatisch erkannt werden. Dadurch kann auf wird, indem sie den Zeitpunkt des Umladens festlegt 

Grundlage dieses Verfahrens ein vollwertiger Ersatz fur Daher entspricht ein DFP gemaB dem beschriebenem 

Mikroprozessorengeschaff en werden. 55 Verfahren mcht der bekannten von- Neumann- Archi- 

Ein Vorteil der vorliegenden Erfindung liegt darin, iektur, da die Daten- und Programmspeicher getrennt 

daB die beschriebene Methode eine fiber einen weiten sind Dies bedeutet jedoch gleichzeitig eine hohere Si- 

Raum skalierbare Parallelitat ermdglicht Hierbei wird cherheit, da fehlerhafte Programme keinen CODE, son- 

eine Basis zum schnellen und flexiblen Aufbau von zum dern lediglich DATEN zerstdren konnen. 

Beispiel neuronalen Strukturen geschaffen, wie sie bis 60 Um dem DatenfluBprozessor eine arbeitsfahige 

dato lediglich mit erheblichem Aufwand durch Software Struktur zu geben, werden einige Zellen, und zwar unter 

simuliert werden konnen. anderem die Eingabe-/Ausgabefunktionen (I/O) und 

Diese Aufgabe wird durch die im Patentanspruch I Speichermanagementfunktionen (I/O) vor dem Laden 

angegebenen Merkmale beziehungsweise Verfahren- der Programme geladen und bleiben fur gewdhnlich 

schritte geldst Zur Verdeutlichung der Verfahrens- 65 wahrend der gesamten Laufzeit konstant 

schritte wird beispielsweise ein integrierter Schaltkreis Dies ist erforderlich um den DatenfluBprozessor an 

(Chip) mit einer Vielzahl insbesondere orthogonal zu- seine Hardwareumgebung anzupassen. Die ubrigenZei- 

einander angeordneter Zellen mit je einer Mehrzahl je- len werden zu sogenannten MACROs zusammengefaBt 
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und konnen wahrend der Laufzeit nahezu beliebig und 
ohne Beeinflussung von Nachbarzellen oder anderen 
MACROS umkonfiguriert werden. Dazu sind die Zellen 
einzeln und direkt adressierbar. 

Urn die Umstrukturierung (das Umladen/Umkonfigu- 
rieren) der Zeflen oder MACROs mit der Ladelogik zu 
synchronisieren, kann — wo notwendig, da nur Umgela- 
den werden darf, wenn die MACROs mit ihrer alten 
Tatigkeit fertig sind — eine Synchronisationsschaltung 
als MACRO auf dem DatenfluBprozessor unterge- 
bracht werden, die die entsprechenden Signale an die 
Ladelogik absendet Hierzu kann eventuell eine Modifi- 
kation der gewdhnliehen MACROs von Noten sein, da 
diese dann der Synchronisations-Schaltung Zustandsin- 
formationen zur Verfugung stellen mussen. 

Diese Zustandsinformationen signalisieren der Syn- 
chronisationslogik fur gewOhnlich, daB einzelne MA- 
CROs ihre Aufgabe erledigt haben, was aus program- 
miertechnischer Sicht zum Beispiel die Terminierung 
einer Prozedur oder das Erreichen der Terminierungs- 
bedingung einer Schleife bedeuten kann. DJl das Pro- 
gramm wird an einer anderen SteUe fortgesetzt und die 
die Zustandsinformation absendenden MACROs kon- 
nen umgeladen werden. Zudem kann es von Interesse 
sein, daB die MACROs in einer bestimmten Reihenfolge 
umgeladen werden. Hierzu kann eine Wertung der ein- 
zelnen Zustandsinformationen durch eine Logik (zum 
Beispiel einen (Prioritats- Arbiter) erfolgen. Eine derarti- 
ge — einfache — Logik 1st in Fig, 19 gezeichnet Die 
Logik besitzt sieben Eingangssignale durch die die sie- 
ben MACROs ihre Zustandsinformation abgeben. In 
diesem Fall soli 0 fur In Arbeit* und 1 fur "fertig" stehen. 
Die Logik besitzt drei Ausgangssignale, die an die Lade- 
logik geftihrt werden, wobei der Zustand 000 als Ruhe- 
zustand gilt Liegt ein Signal an einem der sieben Ein- 
gange an, so findet eine Dezimal-Binar-Umsetzung 
statt, so wird zum Beispiel Sync6 als 1 10 dargestellt, was 
der Ladelogik anzeigt, daB das MACRO, welches Sync6 
bedient, seine Aufgabe beendet hat Liegen gleichzeitig 



mit zwei Kaskadierungsmethoden denkbar: 

a) Nur die lokalen Verbindungen zwischen den Zel- 
len werden herausgefuhrt, was im vorliegenden 

5 Beispiel zwei IO-Pins pro Kantenzelle und vier 10- 
Pins pro Eckzelle bedeutet Allerdings hat der 
Compiler/Programmierer zu beachten, daB die glo- 
balen Verbindungen nicht herausgefuhrt werden, 
wodurch die Kaskadierung nicht vollstandig homo- 
i o gen ist (Globale Verbindungen zwischen mehrer en 
Zellen, fur gewohnlich zwischen einer kompletten 
Zeilenreihe oder -spalte — siehe Fig. 1 — ; lokale 
Verbindungen existieren nur zwischen zwei Zellen). 
Fig, 6a zeigt den moglichen Aufbau innerhalb eines 
15 DFPs, Fig. 7a zeigt die daraus resultierende Kaska- 
dierung von mehreren DFPs (drei gezeichnet). 

b) Die lokalen und globalen Verbindungen werden 
herausgefuhrt, was die Anzahl der benotigten Trei- 
ber/IO-Pins und Leitungen drastisch erhoht, in un- 

20 serem Beispiel (Fig. 6b) auf sechs IO-Pins pro Kan- 
tenzelle und zwolf IO-Pins pro Eckzelle. Dadurch 
ist eine vollstandige Homogenitat bei der Kaska- 
dierung gegeben (Kg. 7b). 

25 Da die globaien Verbindungen insbesondere bei Ver- 
wendung der Kaskadierungstechnik b) sehr lang wer- 
den konnen, kann der unangenehme Effekt auftreten, 
daB die Zahl der globalen Verbindungen nicht ausreicht, 
da bekanntlich jede Verbindung nur von einem Signal 
30 genutzt werden kann. Um diesen Effekt zu niinimieren, 
kann nach einer gewissen Lange der globalen Verbin- 
dungen ein Treiber eingeschleift werden. Der Treiber 
hat zum einen eine Verstarkung des Signal s zur Aufga- 
be, die bei langen Strecken und entsprechend hohen 
35 Lasten, unbedingt erforderlich ist; zum anderen kann 
der Treiber in Tristate gehen und damit das Signal un- 
terbrechen. Dadurch konnen die Abschnitte links und 
rechts, beziehungsweise oberhalb und unterhalb des 
Treibers von verschiedenen Signalen genutzt werden, 



mehrere Zustandsinformationen am Eingang an, so gibt 40 sofern der Treiber in Tristate ist, ansonsten wird ein 



die Synchronisationsschaltung das Signal mit der hoch 
sten Prioritat an die Ladelogik weiter; liegen zum Bei- 
spiel SyncO, Sync4 und Sync6 an, so reicht die Synchro- 
nistaions-Schaltung zunachst Sync6 an die Ladelogik 
weiter. Nachdem die entsprechenden MACROs umge- 45 
laden sind und somit Sync6 nicht mehr anliegt wird 
Sync4 weitergeieitet usw. Zur Verdeutlichung dieses 
Prinzips kann zum Beispiel der Standard-TTL-Baustein 
74148 in Betracht gezogen werden. 

Ober die Ladelogik kann der DatenfluBprozessor je- 50 
weils optimal und gegebenenfalls dynamisch auf eine zu 
losende Aufgabe eingestellt werden. Damit ist zum Bei- 
spiel der grofie Vorteil verbunden, daB neue Normen 
oder dergletchen einzig und allein durch Umladen des 



Signal durchgeschleift Wichtig ist hierbei, daB die Trei- 
ber der einzelnen globalen Leitungen auch einzeln an- 
gesteuert werden konnen, d. h. ein globales Signal kann 
unterbrochen sein, das Nachbarsignal ist jedoch durch- 
geschleift Somit konnen auf einer globalen Verbindung 
durchaus abschnittweise verschiedene Signale anliegen, 
wahrend die globale Nachbarverbindung tatsachlich 
global von ein und demselben Signal verwendet wird 
(vergleicheFig. 18). 

Zur besseren Kommunikation zwischen den Daten- 
fluBprozessoren und der Ladelogik konnen sogenannte 
Shared-Memories eingesetzt werden. So konnen zum 
Beispiel Programme von einer Festpiatte, die im IO-Be- 
reich eines Datenflufiprozessors Uegt zur Ladelogik 



DatenfluBprozessors umgesetzt werden konnen und 55 durchgereicht werden, indem die DatenfluBprozessoren 



nicht — wie bisher — einen Austausch mit entsprechen- 
dem Anf all von Elektronikschrott bedingen. 

Die DatenfluBprozessoren sind untereinander kaska- 
dierbar, was zu einer beinahe beliebigen Erhohung des 
Parallelisierungsgrades, der Rechenleistung, sowie der 
NetzgroBe in neuronalen Netzen fuhrt Besonders wich- 
tig ist hier eine klare homogene Verbindung der Zellen 
mit den Ein-/Ausgangs-Pins (IO-Pins) der DatenfluB- 
prozessoren, um mdglichst keine Einschrankungen auf 
die Programme zu haben. 

In Fig. 4 ist zum Beispiel die Kaskadierung von vier 
DFPs gezeigt Sie erscheinen der Umgebung wie ein 
groBer homogener Baustein (Fig. 5). Prinzipieil sind da- 



60 



65 



die Daten von der Platte in den Shared-Memory schrei- 
ben und die Ladelogik sie dort abholt Dies ist besonders 
wichtig, da hier, wie bereits erwahnt, keine von-Neu- 
mann- sondern eine Harvardarchitektur vorliegt Eben- 
so sind die Shared-Memories von Vorteil, wenn Kon- 
stanten, die im Programm — das im Speicherbereich der 
Ladelogik liegt — definiert sind, mit Daten — die im 
Speicherbetrieb der DatenfluBprozessoren liegen — 
verkmlpft werden sollen. 

Weiterbildungen der vorstehend definierten und um- 
schriebenen Erfmdung sind Gegenstand der Unteran- 
spruche. 

Eine besondere Verwendung eines DatenfluBprozes- 
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5 6 
sors gemaB dera beschriebenem Verfahrens ist darin zu gestellt sind (tatsachlicb bedeutet eine gezeichnete Ver- 
sehen, da8 er in Verbindung mit geeigneten Ein-/Ausga- bindung eine Mehrzahi von Leitungen); 
be-Einheiten einerseits und einem Speicher andererseits Fig. 5 die durch die Kaskadierung erreichte Homoge- 
die Basis fur einen kompletten (komplexen) Rechner nitat; 

bilden kann. Dabet kann ein GroBteil der lO-Funktio- 5 Fig. 6a die Struktur der E/A-Zellen, wobei die globa- 

nen als MACROs auf dem DatenfluBprozessor imple- Ien Verbindungen nicht herausgeffihrt werden, 

mentiert werden und es brauchen momentan lediglich Fig. 6b die Struktur der E/A-Zellen, jedoch mit her- 

Spezialbausteine (Ethernet-Treiber, VRAMS. . .) extern ausgefuhrten globalen Verbindungen; 

zugefugtzu werden. Bei einer Normanderung oder Ver- Fig. 7a die aus Fig. 6a resultierende Kaskadierung, 

besserung muB dann wie bereits angedeutet nur das 10 wobei eine Eckzelle, sowie die zwei mit ihr kommunizie- 

MACRO softwareseitig angepaBt werden; ein Eingriff renden Treiberzellen der kaskadierten Bausteine (ver- 

in die Hardware ist nicht notwendig. Es bietet sich hier gleiche hierzu Fig. 4) gezeichnet sind; 

an, einen IO-(Eingabe-/Au5gabe-) Stecker festzulegen, Fig. 7b die aus Fig. 6b resultierende Kaskadierung, 

fiber welchen dann die Zusatzbausteine angeschlossen wobei eine Eckzelle, sowie die zwei mit ihr kommunizie- 

werden konnen. 15 renden Treiberzellen der kaskadierten Bausteine (ver- 

Fig. 16 zeigt den stark vereinfachten Aufbau eines gleiche hierzu Fig. 4) gezeichnet sind; 
heute ublichen Rechners. Durch den Einsatz eines DFP- Fig. 8 einen bei spiel haften Aufbau einer Zelle mit 
Bausteins kdnnen erhebliche Teile eingespart werden MuitiplexernzurAuswahlderjeweiligenlogischenBau- 
(Flg. 17), wobei die entsprechenden herkdmmlichen steine; 

Baugruppen (CPU, Speicherverwaltung, SCSI-, Tasta- 20 Fig. 9 ein Schaltsymbol fur einen 8-Bit-Addierer; 
tur- und Videointerface, sowie der parallelen und seriel- Fig. 10 ein Schaltsymbol ffir einen aus acht 1-Bit-Ad- 
len Schnittsteilen) als MACROs in die kaskadierten dierern bestehenden 8-Bit-Addierer nach Fig. 9; 
DFPs abgelegt werden. Nur die durch einen DFP nicht Fig. 11 eine logische Struktur eines 1-Bit-Addierers 
nachbildbaren Teile wie Speicher und Lehungstreiber entsprechendFig.lO; 

mit nicht TTL-Pegeln oder fur hohe Lasten mfissen ex- 25 Fig. 12 eine Zeilenstruktur des 1-Bit-Addierers em- 
tern zugeschaltet werden. Durch die Verwendung des sprechend Fig. 11; 

DFPs ist eine gunstige Produktion gegeben, da ein und Fig. 13 einen der Zeilenstruktur nach Fig. 9 entspre- 
derselbe Baustein sehr haufig verwendet wird, das Lay- chend aufgebauten 8-Bit-Addierer; 
out der Platine ist durch die homogene Vernetzung ent- Fig. 14 ein erstes Ausfuhrungsbeispiel einer Mehrzahi 
sprechend einfach. Zudem wird der Aufbau des Rech- 30 miteinander zu einem Rechenwerk gekoppelter inte- 
ners durch die Ladelogik bestimmt, die hier fur gewohn- grierter Schaltkreise (DatenfluBprozessor) nach Fig. 3; 
lich nur zu Beginn der Verarbeitung (nach einem Reset) Fig. 15 ein zweites Ausfiihrungsbeispiel einer Mehr- 
das DFP-Array ladt, wodurch eine gfinstige Fehlerkor- zahl miteinander zu einem Rechenwerk gekoppelter in- 
rektur- und Erweiterungsmoglichkeh gegeben ist Ein tegrierter Schaltkreise (DatenfluBprozessor) nach 
derartiger Rechner kann insbesondere mehrere ver- 35 Fig. 3; 

schiedene Rechnerstrukturen simulieren, indem einfach Fig. 16 den stark schematisierten Aufbau eines her- 
der Aufbau des zu simulierenden Rechners in das DFP- kommlichen Rechners; 

Array geladen wird Zu bemerken ist, daB hierbei der Fig. 17 den mdglichen Aufbau desselben Rechners 
DFP nicht in seiner Funktion als DFP arbeitet sondern mit Hilfe eines Arrays aus kaskadierten DFPs; 
ledigUcheinhochkomplexesundfreiprogran^ierbares 40 Fig. 18 einen Ausschnitt mit eingezeichneten (Lei- 
Zellarray zur VerfQgung stellt, sich hierbei jedoch von tungs-) Treibern eines DFPs. 

herkdmmlichen Bausteinen in seiner besonderen guten Fig. 19 eine zum Beispiel mit einem Standard-TTL- 
Kaskadierbarkeit unterscheidet Baustein 74148 ausgefuhrte Synchronisationsiogik; 

Ein weiteres Einsatzgebiet eines solchen Bausteins ist Fig. 20a, b, c ein Ausfuhrungsbeispiel eines MACRO 
der Aufbau groBer neuronaler Netze. Sein besonderer 45 zur Addition zweierZahlenreihen; 
Vorzugliegt hierbei in seiner hohen Gatterdichte, seiner Fig. 21a eine Multiplikationsschaltung (vergleiche 
ausgezeichneten Kaskadierbarkeit, sowie seiner Homo- Fig. 20); 

genitat Ein Lernvorgang, der eine Anderung einzelner Fig. 21b die interne Struktur des DFPs nach dem La- 
axiomatischer Verbindungen beziehungsweise einzel- den (vergleiche Fig. 20b); 

ner Zellfunktionen beinhaltet ist auf ublichen Baustei- 50 Fig. 21c die Arbeitsweise des DFPs im Speicher, so- 
nen ebenso schlecht durchf fihrbar, wie der Aufbau gro- wie 5e Zustfinde der Zahier 47, 49; 
Ber homogener und gleichzeitig flexibler Zellstrukturen. Fig. 22a, b, c eine Kaskadenschaltung, wobei der Ad- 
Die dynamische Umkonfigurierbarkeit ermdglicht erst- dierer aus Fig. 20 und der Multiplizierer aus Fig. 21 zur 
malig die optimale Simulation von Lernvorgangea Steigerung der Rechenleistung hintereinander geschal- 

Die vorliegende Erfindung wird im folgenden anhand 55 tetsind; 
der weiteren Figuren naher erlautert Insgesamt zeigen In Fig. 9 ist ein Schaltsymbol eines 8-Bit-Addierers dar- 

Flg. 1 ein aus vier Zellen bestehendes unprogram- gestellt Das Schaltsymbol besteht aus einem quadrati- 
miertes SUBMACRO X (analog einem 1-Bit-Addierer schen Baustein 1 mit acht Eingangen A 0. . .7 fQr ein 
gemaB Fig. 12 beziehungsweise Fig. 13) mit den erfor- erstes Datenwort A und acht Eingangen B 0. . .7 fur ein 
derlichen Leitungsanschlfissen; 60 zweites (zu addierendes) Datenwort B. Die jeweils acht 

Kg. 2 einen Teilausschnitt eines integrierten Schalt- Eingange Aj, Bi (i « 0. . .7) werden erganzt durch einen 
kreises (Chip) mit einer Vielzahl von ZeUen und einem weiteren Eingang Oein fiber den dem Baustein 1 gege- 
separierten SUBMACRO X gemaB Fig. 1 ; benenfalls ein Obertrag zugeleitet wird. Der Baustein 1 

Fig. 3 einen integrierten Schaltkreis (Chip) mit einer hat funktions- und bestimmungsgemaB acht Ausgange S 
Orthogonalstruktur einer quasi beliebigen Vielzahl von 65 0.. 1 ffir binaren Summanden und einen weiteren Aus- 
Zellen und einer extern zugeordneten Ladelogik; gang Oaus ffir den gegebenenfalls bestehenden Ober- 

Fig. 4 die Kaskadierung von vier DFPs, wobei die trag. 
Verbindung zwischen den IO-Pins nur schematisch dar- Das in Fig. 9 dargestellte Schaltsymbol ist in Fig. 10 
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als Anordnung sogenannter SUBMACROS dargesteUt risch separiert, das letztlich als aus vier einem 1-Bit-Ad- 
Diese SUBMACROS 2 bestehen je aus einem 1-Bit-Ad- dierer entsprechend programmierten Zellen (10 gemiB 
dierer 3 mit je einem Eingang fur die entsprechenden Kg. 12) bestehende Untereinheitzubetrachtenist 
Bits des Datenworts und einem weiteren Eingang fur ein Das in Fig. 13 separierte SUBMACRO "X" ist in 
Obertragsbit Die 1-Bit-Addierer 3 weisen daruberhin- 5 Fig. 1 als Teil eines integrierten Schaltkreises (Chip) 20 
aus einen Ausgang fur den Summanden und einen Aus- gemeinsam mit Leitungs- und Datenanschlfissen darge- 
gang fur den Obertrag Oaus auf. stellt Das SUBMACRO "X" besteht aus den vier Zellen 

In Fig. 11 ist die binare Logik eines 1-Bit- Addierers 10 die entsprechend der orthogonalen Struktur je Seite 
beziehungsweise eines SUBMACROS 3 nach Fig. 10 vier Datenanschlusse (also insgesamt sechzehn Daten- 
dargesteilt Analog zu Fig. 10 weist diese Schaltlogik je 10 anschlflsse je Zelle) aufweisen. Die Datenanschlusse 
einen Eingang Ai, Bi fur die konjugierten Bits der zu verbindenjeweilsbenachbarte Zellen, so daB ersichtlich 
verknupfenden Daten auf; ferner ist ein Eingang Oein wird, wie beispielsweise eine Dateneinheit von Zelle zu 
fur den Obertrag vorgesehen. Diese Bits werden den Zelle durchgeschleust wird Die Ansteuerung der Zellen 
dargestellten Verbindungen beziehungsweise Verknup- 10 erfolgt einerseits fiber sogenannte lokale Steuerun- 
fungen entsprechend in zwei ODER-Gliedern 5 und drei 15 gen, das sind lokale Leitungen, die mit alien Zellen ver- 
NAND-GUedern 6 verknfipft, so daB am Ausgangsan- bunden sind, und andererseits uber sogenannte giobale 
schluB Si und am Ausgang fur den Obertrag Oaus die Leitungen, d h. Leitungen, die uber den gesamten inte- 
einem Volladdierer entsprechenden Verknfipfungser- grierten Schaltkreis (Chip) 20 gefuhrt sind 
gebnisse(Si,0aus)anstehen. In Fig. 2 ist ein vergroBerter Ausschnitt eines inte- 

Auf der Grundlage logisch und strukturell identischer 20 grierten Schaltkreises 20 dargesteUt, der mit einem or- 
Zellen 10, deren einzelne logische Bausteine der auszu- thogonalen Raster von Zellen 10 belegt ist Wie in Fig. 2 
ffihrenden Verknupfungsfunktion entsprechend ver- angedeutet kann so zum Beispiel eine Gruppe von vier 
schaltet werden, wird der 8-bit Addierer 2 in geeigneter Zellen 10 als SUBMACRO "X" ausgewahlt und dem 
Weise in die Zellstruktur implementiert Der Vorgang 1-Bit-Addierer entsprechend Fig. 12 gemaB program- 
geschieht mittels der noch zu beschreibenden Ladelo- 25 miert beziehungsweise konflguriert werden. 
gik. GemaB der in Fig. 12 gezeigten, von der Schaltlogik Ein vollstSndiger integrierter Schaltkreis gemaB dem 
nach Fig. 1 1 abgeleiteten Verknupfungslogik fur einen beschriebenen Verf ahren (DFP) 20 ist beispielsweise in 
1-Bit-Addierer sind je zwei Zellen 10.1, 10.2 bezuglich Fig. 3 dargesteUt Dieser integrierte Schaltkreis 20 be- 
der logischen Bausteine insoweit gleich, daB jeweils ein steht aus einer Vielzahl im orthogonalen Raster ange- 
ODER-GIied 5 und ein NAND-Glied 6 aktiviert sind 30 ordneter ZeUen 10 und weist an seinen AuBenkanten 
Eine dritte Zelle 103 wird nur als Leitungszelle (Leiter- eine entsprechende Anzahl von LeitungsanschlQssen 
bahnzeUe) benutzt und die vierte Zelle 10.4 ist bezuglich (Pins) auf, uber die Signale, insbesondere Ansteuersi- 
des dritten NAND-Gliedes 6 aktiv geschaltet Das aus gnale und Daten zugefuhrt und weitergeleitet werden 
den vier Zellen 10.1. . . . 10.4 bestehende SUBMACRO 2 kdnnen. In Fig. 3 ist wiederum das SUBMACRO X 
steht somit steUvertretend fur einen 1-Bit-Addierer, dh. 35 gemaB Fig. 13/Fig. 1 abgegrenzt; dariiberhinaus sind 
ein 1-Bit-Addierer einer Datenverarbeitungseinrich- auch weitere SUBMACROS separiert, die spezifischen 
tung nach Art der vorliegenden Erfindung kann uber Funktionen und Vernetzungen entsprechend zu Unte- 
vier entsprechend programmierte (konfigurierte) ZeUen reinheiten zusammengefaBt sind Dem integrierten 
10.1. ... 10.4 verifiziert werden. (Der VoUstandigkeit Schaltkreis (Chip) 20 ist eine Ladelogik 30 zugeordnet 
halber soil angemerkt werden, daB die einzelnen ZeUen 40 beziehungsweise ubergeordnet, uber die der integrierte 
ein erheblich umfangreicheres Netzwerk von logischen Schaltkreis 20 programmiert und konfiguriert wird Die 
Bausteinen, sprich Verknupfungsgliedern, und Invertern Ladelogik 30 teflt letzthch dem integrierten Schaltkreis 
aufweist, die jeweils dem aktuellen Bef ehl der Ladelogik 20 mit, wie er arithmetisch-logisch zu arbeiten hat 
zufolge aktiv geschaltet werden konnen. Neben den lo- Anhand von Fig. 14 beziehungsweise Fig. 15 soU im 
gischen Bausteinen ist auch ein dichtes Netz von Ver- 45 folgenden eine Rechnerstruktur beschrieben werden, 
bindungsleitungen zwischen den jeweils benachbarten die auf den im vorstehenden definierten und eriauterten 
Bausteinen und zum Aufbau von zeilen- und spaltenwei- integrierten Schaltkreis 20 aufbaut 
sen Busstrukturen zur Datenubertragung andererseits GemaB dem in Fig. 14 dargesteUten ersten Ausffih- 
vorgesehen, so daB fiber eine entsprechende Program- rungsbeispiel ist — analog zur Anordnung der ZeUen — 
mierung seitens der Ladelogik quasi betiebige logische 50 im Orthogonalraster eine Mehrzahi von integrierten 
Verknfipfungsstrukturen implementiert werden kon- Schaltkreisen 20 angeordnet, deren jeweils benachbarte 
nen). fiber lokale BUS-Leitungen 21 miteinander gekoppelt 

Der VoUstandigkeit halber ist in Fig. 13 der Zellen- beziehungsweise vernetzt sind Die — beispielsweise 
aufbau eines 8-Bit-Addierers in seiner Gesamtheit dar- aus sechzehn integrierten Schaltkreisen 20 bestehende 
gesteUt Die in Fig. 13 gezeigte Struktur entspricht inso- 55 — Rechnerstruktur weist Ein-/Ausgangsleitungen IO 
weit der nach Fig. 10, wobei die in Fig. 10 symbolisch als auf, fiber die der Rechner quasi mit der AuBenwelt in 
SUBMACROS 3 dargesteUten 1-Bit-Addierer jeweils Verbindung steht, d h. korrespondiert Der Rechner ge- 
durch eine vier-zeUige Einheit 10.1. . . . 10.4 ersetzt sind m£B Fig. 14 weist ferner einen Speicher 22 auf, der dem 
Bezogen auf einen DatenfluBprozessor gemaB des be- dargesteUten Ausfuhrungsbeispiel entsprechend aus 
schriebenen Verfahrens bedeutet dies, dafl zweiunddrei- 60 zwei separierten Speichern, zusammengesetzt aus je- 
Big ZeUen der zur Verfugung stehenden Gesamtheit weils RAM, ROM sowie einem Dual-Ported RAM als 
von ZeUen einer zeUular mit logisch identischem Layout shared memory zu der Ladelogik geschaltet, besteht, die 
gefertigten Schaltungspiatine seitens der Ladelogik so gleichermaBen als Schreib-Lese-Speicher oder auch nur 
angesteuert und konfiguriert beziehungsweise pro- als Lese-Speicher realisiert sein konnen. Der soweit be- 
grammiert werden, daB diese zweiunddreiBig ZeUen ein 65 schriebenen Rechnerstruktur ist die Ladelogik 30 zu- 
8-Bit- Addierer bilden. beziehungsweise ubergeordnet, mittels der die inte- 

In der DarsteUung nach Fig. 13 ist fiber eine strich- grierten Schaltkreise (DatenfluBprozessor) 20 program- 
punktierte Umrahmung ein SUBMACRO X zeichne- miert und konfiguriert und vernetzt werden. 
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Die Ladelogik 30 baut beispielsweise auf einem 
Transputer 31, d h. einem Prozessor mit mikrocodier- 
tem Befehlssatz auf, dem seinerseits ein Speicher 32 
zugeordnet ist Die Verbindung zwischen dem Transpu- 
ter 31 und dem DatenfluBprozessor basiert auf einer 
Schnittstelle 33 fur die sogenannten Ladedaten, d h. die 
Daten die den DatenfluBprozessor aufgabenspezifisch 
programmieren und konfigurieren und einer Schnitt- 
stelle 34 fur den bereits genannten Rechnerspeicher 22, 
d h. den Shared-Memory-Speicher. 

Die in Fig, 14 dargestellte Struktur stellt so einen 
kompletten Rechner dar, der fiber die Ladelogik 30 je- 
weils fall- beziehungsweise aufgabenspezifisch pro- 
grammiert und konfiguriert werden kann. Der Vollstiui- 
digkeit halber sei noch angemerkt, daB — wie in Verbin- 
dung rait der Ladelogik 30 fiber Pfeile angedeutet — 
mehrere dieser Rechner vernetzt, d h. miteinander ge- 
koppeit werden konnen. 

Ein weiteres Ausfuhrungsbeispiel einer Rechner- 
struktur ist in Fig, 15 dargestellt Im Unterschied zu 
Fig. 14 sind dabei neben den lokalen BUS-Leitungen 
zwischen den benachbarten integrierten Schaltkreisen 
20 nodi fibergeordnete zentrale BUS-Leitungen 23 vor- 
gesehen, um zum Beispiel spezifische Ein- beziehungs- 
weise Ausgangsprobleme losen zu konnen. Auch der 
Speicher 22 (Shared-Memory) ist fiber zentrale BUS- 
Leitungen 23 mit den integrierten Schaltkreisen 20 ver- 
bunden, und zwar wie dargestellt jeweils mit Gruppen 
dieser integrierten Schaltkreise. Die in Fig. 15 darge- 
stellte Rechnerstruktur weist die gleiche Ladelogik 30 
auf, wie sie anhand von Fig, 14 erlautert wurde. 

In Verbindung mit Fig. 20a soil eine aus erfindungsge- 
maBen DatenfluBprozessoren aufgebaute Additions- 
schaltung erlautert werden- Ausgegangen wird von zwei 
Zahlenreihen A n und B n fur samtliche n zwischen 0 und 
9; die Aufgabe besteht darin, die Summe Q = Ai + B; 
zu bilden, wobei der Index i die Werte 0 <= n < 9 
annehmen kann. 

Bezugnehmend auf die Darstellung nach Fig. 20a ist 
die Zahlenreihe A n in einem ersten Speicher RAMI 
abgespeichert und zwar zum Beispiel ab einer Speicher- 
adresse 1000 h; die Zahlenreihe B n ist in einem Speicher 
RAM2 an einer Speicheradresse OdfaOh abgespeichert; 
die Summe C n wird in den RAMI eingeschrieben und 
zwar unter der Adresse lOOah. 

£s ist ein weiterer Zahler 49 zugeschaltet, der ledig- 
lich die einzelnen durch die Steuerschaltung freigegebe- 
nen Taktzyklen hochzahlt Dies soli im Weiteren zur 
Verdeutlichung der Umkonfigurierbarkeit einzelner 
MACROs ohne Beeinflussung der an der Umkonfigurie- 
rung nicht beteiligten MACROs dienen. 

Fig.20a zeigt zunachst die eigentliche Additions- 
schaltung 40, die aus einem ersten Register 41 zur Auf- 
nahme der Zahlenreihe A n und einem zweiten Register 
42 zur Aufnahme der Zahlenreihe B n besteht Den bei- 
den Registern 41/42 ist ein 8-Bit-Addierer entsprechend 
dem in Fig. 9 dargestellten MACRO 1 nachgeschaltet 
Der Ausgang des MACRO 1 ffihrt fiber eine Treiber- 
schaltung 43 zurfick zum Speicher RAMI. Die Takt- 
beziehungsweise Zeitsteuerung der Additionsschaltung 
40 erfolgt fiber eine von einem Taktgenerator T ange- 
steuerte Zustandsmaschine (STATEMACHINE) 45, die 
mit den Registern 41, 42 und der Treiberschaltung 43 
verbunden ist 

Die Additionsschaltung 40 wird funktional durch eine 
AdreBschaltung 46 zur Generierung der AdreBdaten ffir 
die abzuspeichernden Additionsergebnisse erganzt Die 
AdreBschaltung 46 besteht ihrerseits aus drei MACROs 



1 (gemaB Fig. 9) zur Bildung der AdreBdaten, wobei 
diese MACROs 1 wie folgt geschaltet sind: Ober jeweils 
einen Eingang werden die zu verknupfenden Adressen 
ffir An, Bn, Cn zugefuhrt Diese Adressen werden mit den 
s Ausgangssignalen eines Zahlers 47 addiert und mit der 
Statemachine 45 so verknupft, daB am Ausgang die neue 
Zieladresse ansteht Der ZShler 47 und der Komparator 
48 haben dabei die Aufgabe sicherzustellen, daB jeweils 
die richtigen Summanden verknupft werden und daB 

io jeweils am Ende der Zahlenreihen, d h. bei n =* 9 abge- 
brochen wird Ist die Addition vollendet, so wird m der 
Zustandsmaschine 45 ein STOP-Signal generiert und die 
Schaltung passiv geschaltet Ebenso kann das STOP-Si- 
gnal als Eingangssignal ffir eine Synchronisations-Schal- 

15 tung verwenden werden, indem die Synchronisationslo- 
gik anhand dieses Signals erkennen kann, daB die Ge- 
samtfunktion "Addieren" gemaB dem nachfolgend be- 
schriebenen ML1 Programm beendet ist und die MA- 
CROS somit durch Neue ersetzt werden konnen (zum 

20 Beispiel konnte STOP das Signal SyncSsein). 

Der Zeitablauf in der 45 (STATEMACHINE) laBt 
sich dabei wie folgt darstellen, wobei noch anzumerken 
ist, daB in der Zustandsmaschine 45 eine Verzdgerungs- 
zeit T (in Form von Taktzyklen) zwischen der AdreBge- 

25 nerierung und dem Datenerhalt implementiert ist: 



— Im Zyklus 1 wird jeweils der Zahler 47 um 1 
erhoht und im Komparator 48 wird geprfift, ob n > 
9 erreicht ist; synchron zu diesen Operationen wer- 
den die Adressen ffir A, B, C berechnet; 

— im Zyklus (T + 1) werden die Summanden A, B 
ausgelesen und addiert; 

— im Zyklus (T + 2) wird die Summe C abgespei- 
chert 



30 
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Mit anderen Worten heiBt dies, daB die Operations- 
schleife und die eigentliche Addition gerade (T + 2) 
Taktzyklen erfordert Im allgemeinen sind ffir T 2.. 3 
Takte erforderlich, so daB verglichen mit den herkdmm- 
40 lichen Prozessoren (CPU), die im allgemeinen 50 bis 
mehrere 100 Taktzyklen bedingen, eine ganz wesentii- 
che Rechenzeit-Reduzierung moglich wird 

Die anhand von Fig. 20 aufgezeigte Konfiguration 
soil im folgenden fiber eine hypothetische MACRO- 
45 Sprache ML1 nochmals erlautert werden: 
Es existieren die Zahlenreihen An und B n 

n:0<=n< = 9 
Es sollen die Summen Q = Ai + B\ mit i e N gebildet 
werden. 
50 const n - 9; 



array A[n] in RAM[1 
array B[n] in RAM[2' 

"i]inl - 



array C[n] in RAM[1 



at 1000 h; 
at OdfaOh; 
at lOOah; 



55 



for i « 0 to n with (A[il Bp], Cp]) 
Al; 

C - Al = A -f B; 



next; 

RAM[1] ist der l.Speicherblock 
RAM[2] ist der 2. Speicherblock 
60 at folgt die Basisadresse der Arrays 
for ist der Schleifenbeginn 
next ist das Schleif enende 

with ( ) folgen die Variablen, deren Adressen durch die 
Zihlvariable i bestimmt werden 
65 T folgt die Verzdgerungszeit ffir eine Statemachine in 
Taktzyklen 

Das Tuning der Zustandsmaschine (Statemachine) sieht 
demnach folgendermaBen aus: 
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ZyklusAktivitat 

1 Zahler erhohen, Vergleich auf > 9 (ja ^ Abbruch) 
und 

Adressen fur A, B, C, berechnen 
T + 1 A, B, holen und addieren 
T + 2 Nach C speichern 

Das heifit — wie bereits erwahnt — die Schleife und die 
Addition bendtigen gerade einmal T + 2 Taktzyklen. 

Fig. 20b zeigt den groben Aufbau der einzeinen 
Funktionen (MACROs) in einem erfmdungsgemaBen 
DFP. Die MACROs sind in ihrer etwaigen Lage und 
GroBe eingezeichnet und mit den anband von Fig. 20a 
eriauterten entsprechenden Nummern versehen. 

Fig. 20c zeigt den groben Aufbau der einzeinen Funk- 
tionen auf die RAM-Blocke 1 und 2: Die Summanden 
werden nacheinander in aufsteigender Reihenfolge aus 
den RAM-Blocken 1 und 2 ab Adresse 1000 h bezie- 
hungsweise OdfaOh gelesen und in RAM-Block 1 ab 
Adresse lOOah gespeichert Zudem sind die Zahler 47 
und 49 gegeben, beide zShlen wahrend des Ablaufs der 
Schaltung von 0 bis 9. 

Nach Beendigung des beschriebenen Prograrams soil 
ein neues Programm geladen werden, das die Ergebnis- 
se weiterverwertet Die Umladung soil zur Laufzeit er- 
folgen. Das Programm ist im Folgenden gegeben: 

Es existieren die Zahlenreihen A n und B* wobei A n 
durch das Ergebnis Cn des vorher ausgefuhrten Pro- 
gramms gegeben ist: 

n:0<= n < = 9 
Es sollen die Produkte Q = Ai x Bi mit i e N gebildet 
werden. 
const n — 9 

array A[n] in RAM[1] at lOOah 
array B[n] in RAM[2] at OdfaOh 
array C[n] in RAM[1] at 1015 h 
fori - 0 ton with (ApJB[q,C[TD 
Al; 

C = Al am AxB; 
next 

Die iBeschreibung der einzeinen Befehle ist bereits 
bekannt, x symbolisiert die Muluplikation. 

Die MACRO-Struktur ist in Kg. 21a beschrieben, 
Fig. 21b gibt in bekannter Weise die Lage und GroBe 
der einzeinen MACROs auf dem Chip an, besonders zu 
beachten ist die GrdBe des Multiplizierers 2 in Vergleich 
zu Addierer 1 aus Fig. 20b. In Fig. 21c ist erneut die 
Auswirkung der Funktion auf den Speicher aufgezeigt, 
Zahler 47 zahlt erneut von 0 bis 9, d h. er wird beim 
Nachladender MACROs zurflckgesetzt 

Besonders zu beachten ist der Zahler 49. Angenom- 
men, das Umladen der MACROs betragt 10 Taktzyklen. 
Dann lauft der Zahler 49 von 9 auf 19, da der Baustein 
dynamisch umgeiaden wird, & h. nur die umzuladenden 
Teiie werden gestoppt, der Rest arbeitet weiter. Das 
f Ohrt nun dazu, daB der Zahler wahrend des Programm- 
ablaufs von 19 auf 29 hoch&uft (Hiermit soil das dyna- 
mische unabhangige Umladen demonstriert werden, in 
jedem bisher bekannten Baustein wurde der Zahler er- 
neut von 0 auf 9 lauf en, da er zurOckgesetzt wird). 

Bei naherer Betrachtung des Problems stellt sich die 
Frage, warum nicht beide Operationen, die Addition 
und die Multiplikation in einem Zykhis durchgefuhrt 
werden, also die Operation: 

Es existieren die Zahlenreihen A n und B m wobei A D 
durch das Ergebnis von C n des vorher ausgefuhrten 
Programms gegeben ist: 

n:0<= n < = 9 
Es sollen die Produkte Q =■ (A»+Bi)xBj mit i € N 
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gebildet werden. 
path D; 
const n am 9; 

array A[n] in RAM[1] at 1000 h 
5 array B[n] in RAM[2] at OdfaOh 
array C[n] in RAM[1] at lOOah 
fori = 0 to n with (A[iJ B[iJC(T]) 
Al; 

D = Al « A + B; 
10 C = Al = DxB; 
next; 

path D definiert einen internen nicht aus den DFP 
herausgefuhrten Doppelpfad Die Operation benotigt 
wegen einem zusatziichen Al einen Taktzyklus mehr als 
is vorher, ist insgesamt jedoch schneller als die beiden 
obigen Programme in Folge ausgefuhrt, da zum emen 
die Schleife nur einmai durchlaufen wird, zum zweiten 
nicht umgeiaden wird 
Prinzipiell konnte das Programm auch so formuliert 
20 werden: 
const n= 9; 

array A[n] in RAM[1] at 1000 h 
array B[n] in RAM[2] at OdfaOh 
array C[n] in RAM[1] at lOOah 
25 fori = 0 ton with (ApJBQiqO) 
Al; 

C- A2 = (A + B)xB; 
next; 

Sind die Gatterlaufzeiten des Addierers und des Mul- 
30 tiplizierers zusammen kleiner als ein Taktzyklus, kann 
die Operation (A + B)xB auch in einem Taktzyklus 
durchgefuhrt werden, was zu einer weiteren erhebli- 
chen Geschwindigkeitssteigerung fuhrt: 
const n = 9; 
35 array A[n] in RAM[1] at 1000 h 
array B[n] in RAM[2] at OdfaOh 
array C[n] in RAM[1] at lOOah 
fori = 0 ton with (AflJBpJCQ]) 
Al; 

40 C = A1 =(A+B)xB; 
next; 

Anhand von Fig. 8 soil ein einfaches Beispiel eines 
Zellenaufbaus erlautert werden. Die Zelle 10 umfaBt 
zum Beispiel ein UND-GIied 51, ein ODER-Glied 52, ein 
45 XOR-GIied 53, einen Inverter 54 sowie eine Register- 
zeile 55. Die Zelle 10 weist darfiberhinaus eingangsseitig 
zwei Multiplexer 56, 57 mit (den sechzehn Eingangen 
der Zelle entsprechend Fig. 1) zum Beispiel je sechzehn 
EingangsanschlQssen INI, IN2 auf. Ober diesen 
so (16 : 1)-Multiplexer 56/57 werden jeweils die den ge- 
nannten logischen Gliedern UND, ODER, XOR 51. . 33 
zuzufuhrenden Daten ausgewahlt Diese logischen Glie- 
der sind ausgangsseitig mit einem (3 : 1)-Multiplexer 58 
gekoppelt, der seinerseits mit dem Eingang des Inver- 
55 ters 54, einem Eingang der Registerzelle 55 und einem 
weiteren (3 : 16)- Multiplexer 59 gekoppelt ist Der letzt- 
genannte Multiplexer 59 ist zusatziich mit dem Ausgang 
des Inverters 54 und einem Ausgang der Registerzelle 
55 verbunden und gibt das Ausgangssignal OUT ab. 
60 Der Vollstandigkeit halber sei angemerkt, daB die Re- 
gisterzelle 55 mit einem Reset-Eingang R und einem 
Takteingang gekoppelt ist 

Dem kn vorstehenden eriauterten Zellenaufbau, d. h. 
der Zelle 10 ist nun eine Ladelogik 30 ubergeordnet, die 
65 mit den Multiplexern 56, 57, 58 und 59 verbunden ist und 
diese den gewunschten Funktionen entsprechend an- 
steuert 

Sollen zum Beispiel die Signale A2 mit B5 verrundet 
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werden, so werden die Multiplexer 56, 57 den Leitungen 
"ZWEF beziehungsweise TONF entsprechend aktiv 
geschaltet; die Summanden gelangen dann zum UND- 
Glied 51 und werden bei entsprechender Aktivierung 
der Multiplexer 58, 59 am Ausgang OUT abgegeben. 5 
Soil zum Beispiel eine NAND-Verknupfung durchge- 
fuhrt werden, so schaltet der Multiplexer 58 zum Inver- 
ter 54 und am Ausgang OUT steht dann das negierte 
UND-Ergebnis an. 

10 

Patentanspruche 

1. Verfahren zum Betrieb einer Datenverarbei- 
tungseinrichtung mit programmier- und konfigu- 
rierbarer Zellstruktur, wobei die Datenverarbei- 15 
tungseinrichtung eine Zellmatrix aus einer Vielzahl 
orthogonal zueinander angeordneter, bomogen 
strukturierter ZeUen, welche in ihrer Funktion und 
Vernetzung durch eine Ladelogik frei program- 
mierbar sind, enthait, dadurch gekennzeichnet, 20 
daB 

a) ein Konhgurationsprogramm, bestehend 
aus einer Folge von Ladelogik-Befehlen, die 
jeweils die Funktion und Vernetzung der ein- 
zelnen Zellen angeben, so dafi sicb aus einer 25 
Teil folge eine spezielle Konfiguration mit spe- 
zieller(en) Anwendung(en) ergibt, vorhanden 
ist, auf das die Ladelogik (30) Zugriff hat 
(Fig. 3, Fig. 8, Fig. 14, Fig. 15) und das von ihr 
ausgefuhrt wird, 30 

b) zunachst durch eine bestimmte Anzahl von 
Ladelogik-Befehlen eine Konfiguration 
(Fig. 20b) mit spezieDer(en) Anwendung(en), 
mittels der Ladelogik (30) zu Beginn als Start- 
konfigurauoninderZell-Matrix(Fig.2,Fig.3) 35 
eingestellt wird, 

c) durch eine Statemachine (45) oder einen 
Komparator (48) die Beendigung der Durch- 
fuhrung einer Anwendung einer oder mehre- 
rer Zellen erkannt wird, 40 

d) durch die Erkennung eine Ruckmeldung an 
die Ladelogik (30) erfolgt, die die Programm- 
abarbeitung des Konfigurationsprogramms 
mit einer anderen Teilfolge (Fig. 21b, Fig. 22b) 
fortsetzt, welche nur Zellen umkonfiguriert, al- 45 
so neu erstellt, die die Durchfuhrung ihrer 
Funktion fur die aktuelle Anwendung bereits 
beendet haben oder nicht bendtigt werden, so 
daB die Abarbeitung der Datenstrome der an 
der aktuellen Konfiguration noch beteiligten, 50 
parallel (z. B. Register 41, 42) oder gepipelined 
(z. B. Fig. 22a, Summierer 141 und Multiplizie- 
rer 149) arbeitenden Zellen, die sich noch in 
der Durchfuhrung ihrer Anwendung befinden, 
nicht gestdrt wird. 55 

2. Verfahren zum Betrieb einer Datenverarbei- 
tungseinrichtung nach Anspruch 1, dadurch ge- 
kennzeichnet, daB durch eine Priorisierungs-Logik 
(z, B. Fig. 19) das Umkonfigurieren der unabhangi- 
gen parallel oder gepipelined arbeitenden Zellen, 60 
einer Funktion oder Konfiguration in der optima- 
len richtigen Reihenfolge uber eine Ruckmeldung 
an die Ladelogik sicherstellt wird. 

3. Verfahren zum Betrieb einer Datenverarbei- 
tungseinrichtung nach einem der AnsprQche 1 oder 65 
2, dadurch gekennzeichnet, daB die Operanden aus 
mehreren, beliebig vielen unabhangig adressierten 
und gesteuerten Speichern (Fig. 20a, Fig. 20c; 
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RAMI, RAM2) bezogen werden und das Ergebnis 
in einen dieser Speicher (Fig. 20a, Fig. 20c; RAMI) 
oder einen davon unabhangigen oder eine separa- 
ten Datenkanal (Fig. 14, Fig. 15; IO) ausgegeben 
wird 

4. Verfahren zum Betrieb einer Datenverarbei- 
tungseinrichtung nach einem der Anspruche 1 bis 3, 
dadurch gekennzeichnet, daB zur besseren Ausla- 
stung der Vernetzung von Zellen, Busse mit Hilfe 
von zwischengeschaheten Schaltern (Fig. 18; Trei- 
ber) Verwendung finden, so daB Busse in unabhan* 
gige Abschnitte aufgeteilt werden konnen. 
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